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摘要 : 开展 十 生 红 球 藻 基 因 组 测序 研究 ， 对 于 解读 绿 藻 起 源 与 进化 及 生物 逆境 胁迫 响应 机 理 ， 及 推动 十 
生 红 球 藻 产业 发 展 都 具有 重要 意义 。 利 用 Illumina Hiseq 2500 对 雨 生 红 球 藻 (Eaemaatococcus pluvialis)# 
行 高 通 量 测 序 ， 获 得 低 履 盖 度 全 基因 组 草图 。 通 过 计算 k-mer 分 布 预测 该 基因 组 草图 大 小 约 为 547 Mbp, 
GC 含量 为 59.2 %， 为 纯 合 或 单 倍 体 。 共 得 到 11,059 个 预测 基因 ， 平 均 基因 长 度 为 1,711 bp， 平 均 CDS 
KAA 681 bp; 平均 每 个 基因 包含 3.2 个 外 显 子 ， 外 显 子 平均 长 度 为 333 bp。 代 谢 通路 分 析 表 明 ， 具 有 
完整 的 糖 酵 解 、 三 羧 酸 和 人 循环、 磷酸 戊 糖 途 径 、 嗓 叭 和 喀 啶 合成 等 基本 代谢 通路 。 
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RY ^E ZT ER YE (Haematococcus pluvialis Flotow 1844) 是 一 种 单 细胞 真 核 微 藻 ， RRA] (Chlorophyta), 
£x iit 2 (Chlorophyceae ), 4] # H (Volvocales ), ZLERT Fl (Haematococcaceae ), ZL ER J& (Haematococcus ), 
分 布 在 各 种 小 水 体 和 潮湿 土壤 帆 。 雨 生 红 球 藻 具有 复杂 的 生活 周期 ， 分 为 游 动 细胞 、 不 动 细 胞 、 动 孢子 
和 不 动 孢子 期 R331。 在 特定 环境 条 件 下 ， 如 高 光 、 高 盐 、 缺 氮 等 , 雨 生 红 球 藻 从 游 动 细胞 转变 为 不 动 孢 子 ， 
并 累积 虾 青 素 , 约 占 其 细胞 干 重 的 1%-4%， BUA EUR RS), KAMARA A RITA 
化 活性 ， 有 “超级 维生素 E” 之 美誉 ， 生 产能 力 远 不 能 满足 市 场 需 求 ， 国 际 市 场 价格 高 达 10,000 美 元 /kg， 
大 约 是 人 工 合成 虾 青 素 的 200 倍 ， 广 泛 应 用 在 食品 保健 品 、 化 妆 品 、 饵 料 饲 料 等 领域 591。 

为 解读 雨 生 红 球 菠 合 成 虾 青 素 的 分 子 机 制 ， 摸 清 虾 青 素 代谢 机 理 ， 指 导 选 育 优良 品种 ， 建 立 雨 生 红 
球 汇合 成 是 青 素 代谢 模型 ， 近 年 来 ， 雨 生 红 球 藻 分 子 生 物 学 研究 取得 了 很 大 进步 。 虾 青 素 在 雨 生 红 球 藻 
中 的 代谢 途径 已 经 基本 清楚 ,伴随 着 高 通 量 测序 技术 的 发 展 , 雨 生 红 球 藻 转 录 组 学 0%!、 蛋 白 组 学 [57171 
和 代谢 组 学 08 1 研究 也 不 断 增多 Chen 等 (3 基于 虾 青 素 在 雨 生 红 球 藻 细胞 内 以 虾 青 素 酯 的 形式 存在 的 
特点 ， 利 用 转录 组 学 和 代谢 组 学 的 手段 ， 曾 释 了 雨 生 红 球 藻 虾 青 素 和 脂肪 酸 合 成 的 协同 调控 分 子 机 理 ， 
表明 虾 青 素 酯 化 过 程 对 于 虾 青 素 的 形成 和 积累 具有 推动 作用 。Gwak 等 59 利 用 转录 组 学 和 脂 组 学 的 手段 ， 
分 析 了 雨 生 红 球 藻 绿 色 游 动 细胞 和 红色 不 动 息 子 期 细胞 虾 青 素 合成 和 脂 肪 酸 代 谢 规律 , 重点 阐述 了 高 光 
胁迫 条 件 下 胞 奔 形 成 过 程 中 ， 雨 生 红 球 藻 是 青 素 合成 和 脂肪 酸 代 谢 协 同调 控 机 制 。 

然而 ， 外 界 逆境 如 何 精 准 调控 十 生 红 球 藻 合 成 虾 青 素 ”两 生 红 球 藻 合成 虾 青 素 代谢 通路 中 编码 关键 
限 速 酶 基因 上 游 有 哪些 顺 式 作用 元 件 ? 这 些 顺 式 作用 元 件 如 何 与 转录 因子 相互 作用 ? BS AE ZT BRR A BR 
虾 青 素 是 细胞 响应 外 界 逆境 ， 清 除 活性 氧 自由 基 时 产生 的 副 产 物 还 是 细胞 产生 虾 青 素 的 目的 是 为 了 清除 
自由 基 ? 两 生 红 球 藻 生 物 合成 虾 青 素 仍 有 诸多 问题 需要 解决 PC0， 而 通过 传统 PCR、 转 录 组 学 等 方法 获得 
的 序列 ， 信 息 往往 不 人 全面， 因此， 很 有 必要 对 雨 生 红 球 藻 进行 全 基因 组 测序 ， 以 便于 对 其 遗传 信息 进行 
更 加 系统 的 研究 。 本 研究 利用 第 二 代 高 通 量 测序 仪 Hiumina Hiseq 2500 对 雨 生 红 球 藻 进 行 低 覆 盖 度 全 基 
因 组 测序 , 预测 了 雨 生 红 球 汇 基 因 组 大 小 等 基因 组 基本 特征 ,为 绘制 高 质量 雨 生 红 球 汇 基 因 组 精细 图 作 了 
准备 。 
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1 材料 和 方法 
1.1 实验 材料 及 培养 条 件 

本 研究 使 用 的 十 生 红 球 菠 (Haematococcus pluvialis) 购 自 英 国 CCAP 藻 种 库 ， 现 保存 于 中 国 科 学 院 烟 
台海 岸 带 研 究 所 海岸 带 生 物 学 与 生物 资源 利用 重点 实验 室 。 雨 生 红 球 藻 接种 于 BBM 培养 基 , 于 25C 光 照 条 
件 下 静止 培养 ， 光 照 强度 为 40 pmol/(m?s)， 光 / 暗 周 期 为 12 h/12 h. 
1.2 Ilumina 基因 组 文库 构建 和 测序 


取 处 于 对 数 生长 期 的 雨 生 红 球 藻 细 胞 ， 利 用 天 根 新 型 植物 基因 组 DNA. 提取 试剂 合 (DP320-02， 北 京 》 
提取 基因 组 ， 然 后 使 用 1 % 的 琼脂 糖 凝 胶 电 泳 进行 检测 ， 并 利用 超 微量 分 光 光 度 计 测定 DNA. 浓度 和 纯度 
(A260/A280) 。 获 得 高 质量 的 基因 组 后 , 构建 Pair-end 文库 。 利 用 Covaris S2 (Covaris, 美国 ) 仪器 将 DNA 
打 断 至 400 bp 大 小 的 片段 ， 利 用 TruSeq™ DNA Sample Prep Kit — Set A (llumina， 美 国 ) 制备 文库 ， 最 后 切 
胶 回收 350- 450 bp 的 片段 。 取 10 ng 构建 好 的 文库 DNA; H TruSeq PE Cluster Kit (Illumina, 美国) 在 cBot 
中 进行 cluster generation， 然 后 在 Illumina Hiseq™ 2500 中 进行 双向 测序 。 
1. 3 数据 处 理 


通过 高 通 量 测序 得 到 的 原始 数据 使 用 软件 FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/) 得 到 
clean 序列 ， 有 具体 步 又 如 下 : (1) 使 用 fastx_clipper 去 除 reads 中 的 接头 序列 ; (2) 使 用 fastq_quality filter 从 read 
的 3’ 端 到 5’ 端 方向 开始 去 除 N 至 第 一 个 不 是 N 的 碱 基 ; (3) 使 用 fastq quality filter 从 read 的 3? 端 到 3 端 方 
向 开始 去 除 连续 出 现 的 低 质 量 碱 基 (q <5)， 当 去 除 低 质 量 的 clean reads 长 度 低 于 50bp 时 删除 read 本 身 及 其 
配对 的 序列 ; (4) 使 用 本 地 脚本 配对 pair end reads. 

然后 利用 序列 综合 分 析 软 件 jellyfish3.3.1 绘制 k-mer 分 布 图 ， 并 参照 公式 M=N*(L-K+1)L, 计算 实际 测 
序 深度 ， 其 中 N 代表 实际 测序 深度 ，M 代表 k-mer 曲线 的 峰值 ，L 代表 reads 的 长 度 ，k 代表 字符 串 的 碱 基 
数量 。 最 后 ， 把 全 部 序列 长 度 除 以 实际 测序 深度 N， 预 测 基因 组 大 小 。 

将 Illumina 数据 利用 软件 Velvet?1 进 行 拼接 ， 组 装 获 得 基因 组 草图 。 然 后 将 拼接 组 装 后 的 contig， 与 
NCBI 中 现 有 的 1,002 条 雨 生 红 球 藻 EST 序列 进行 比 对 ， 分 析 基 因 组 草图 覆盖 率 。 拼 装 出 的 基因 组 草图 ， 使 
用 AugustusPE3 进 行 基因 预测 。 将 预测 基因 的 编码 香 白 ， 通 过 blastp 分 别 与 NCBI 的 非 匈 余 和 蛋白 数据 库 (nr)、 
KEGG (Kyoto Encyclopedia of Genes and Genomes) 和 UNIPORT (Universal Proteim) 数 据 库 比 对 , 进行 功能 注释 ， 
比 对 参数 设 为 : E-value <le5。 依 据 注 释 结果 ， 绘 制 KEGG 代谢 通路 图 ， 利用 CDD 数据 库 P3 和 RPS-Blast 
进行 KOG 分 类 ， 进 一 步 进 行 功能 注释 。 
2. 结果 与 分 析 
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2.1 数据 预 处 理 和 拼接 


测序 共 得 到 38,189,673 对 序列 ， 测 序 长 度 是 2*150 bp， 总 碱 基数 是 11.45 G， 过 滤 得 到 高 质量 基因 组 序 
列 37,185,329 对 ， 碱 基数 约 10.55 G。 通 过 对 原始 数据 碱 基 组 成 分 布 和 原始 数据 碱 基 质量 分 布 进行 分 析 ， 发 
现 该 文库 每 个 位 置 上 ，A、C、G、TT 在 开始 有 所 波动 ， 后 面 会 趋 于 稳定 。 一 般 情况 下 A 与 工 相 等 ，C 与 G 
相等 ， 各 碱 基 所 占 百 分 比 会 因 物 种 差异 而 不 同 。 该 文库 碱 基 分 布 均匀 ，N 的 比例 非常 低 ， 碱 基质 量 良 好 ， 可 
用 于 后 续 分 析 。 
2.2 基因 组 大 小 预测 与 杂 合 度 分 析 


k-mer 是 指 将 reads 分 成 包含 个 碱 基 的 字符 串 ， 一 般 长 度 为 LL 的 reads 可 以 分 成 L-k+1l 个 k-mers. 


本 研究 中 每 条 150 bp 的 序列 可 以 拆 成 134 个 17 bp 长 的 字符 串 ， 得 到 测序 reads 所 有 17-mer 片段 ， 然 后 


统计 各 17-mer 及 其 出 现 的 次 数 〈k-mer frequnce )。 以 出 现 次 数 (depth) 为 横 坐 标 ， 以 出 现 多 次 的 片段 总 
数 为 纵 坐 标 作 图 ， 那 么 曲线 的 峰值 M， 就 接近 实际 测序 深度 N。 参 照 公式 : M=N*(L-K+t1)YL， 然 后 把 全 
组 大 小 。 然 后 利用 序列 综合 分 析 软 件 jellyfish3.3.1, 

统计 出 10.55 Gb clean reads 中 的 17-mer， 并 作 图 〈 图 1)， 得 出 M=17， 实 际 测序 深度 N=19。 一 般 认为 


部 序列 长 度 除 以 实际 测序 深度 N， 获 得 预测 的 基因 
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只 出 现 1 次 或 几 次 的 17-mer 是 测序 错误 ， 根 所 
频率 < 8 的 全 部 17-mer， 则 有 效 数据 为 全 部 数据 的 98.3%。 所 以 两 4 
G=10,556,751,790*0.985/19=547 Mb 。 同 时 ， 由 图 3 可 以 看 出 只 有 一 个 
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的 谷底 17-mer 对 应 深度 为 8， 因此 去 除 出 现 
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年， 表示 雨 生 红 球 藻 为 纯 合 或 单 倍 
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有 生 红 球 藻 基因 组 序列 的 17-mer 分 析 


Fig. 1 17-mer analysis of genome contigs in Haematococcus pluvialis 


2.3 序列 组 装 和 基因 组 草图 覆盖 率 评 价 


表 1 AE k-mer 下 的 基因 
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Table 1 the result of genome assemble with different k-mer value 


k-mer Contigs Number Size (bp) Ave Length (bp) Reads Usage 
35 113061 66423650 587 24.60% 
45 118556 87506031 738 30.60% 
55 63142 96909627 1534 34.80% 
65 58115 101883098 1753 39.10% 
75 56423 104818003 1857 42.00% 
85 58995 106127310 1798 43.60% 
95 66985 105643283 1577 44.40% 
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利用 生物 信息 学 软件 Velvet 对 Ilumina 数据 进行 拼接 ， 得 到 了 不 同 k-mer 值 下 基因 组 组 装 结果 ， 如 表 1 
可 见 ， 不 同 的 k-mer 值 对 contig 的 数量 和 总 长 度 影响 均 较 显著 。 一 般 选 择 拼装 结果 ， 采 取 的 原则 是 contig 尽 
量 少 , contig 的 长 度 尽 量 大 。 所 以 , 在 一 定 的 范围 内 , 就 是 选择 contig 平均 长 度 最 大 (contig 的 长 度 除 以 contig 
数目 ,获得 contig 平均 长 度 ) 的 拼装 结果 。 故 本 研究 中 采用 k-mer 值 为 75 的 情况 下 的 拼装 结果 , 即 获得 56,423 
条 contig， 总 长 度 为 104,818,003 bp, contig 的 平均 长 度 为 1,857 bp, “FI GC 含量 为 59.2 %。 由 于 有 效 覆盖 
KRA 17 倍 , 因此 只 能 组 装 出 部 分 基因 组 序列 。 利 用 NCBI 中 现 有 的 1,002 条 EST 序列 与 测序 获得 的 contig 

比 对 ,结果 显示 910 条 序列 可 以 比 对 到 测序 拼接 的 基因 组 ， 占 总 数 的 90.82 % ; 495 条 EST 90% 以 上 序列 被 

单个 contig Hin, LEP 49.40; 782 条 EST 50% 以 上 序列 可 以 被 单个 contig Hitt, LPIA 78.04 (42) 。 
二 ”将 目前 NCBI 中 现 有 的 EST 序 列 与 我 们 预测 的 基因 进行 比 对 ,有 412 条 EST 序 列 可 以 匹配 , 占 总 数 的 41.12 %。 
e MÆRE EST Fr MEN RHA ERA m S Rl AE TERRE IRE DC RC 90 % 左 右 ， 表 明 获 得 了 雨 生 红 
C 球 荡 低 覆盖 度 基因 组 草图 。 
© 362 以 已 知 雨 生 红 球 藻 EST 序列 评价 基因 组 草图 完整 性 
: Table 2 Assessment the sequence coverage of H. pluvialis draft genome using known ESTs 


长 度 覆 盖 率 O0 匹配 的 EST 累积 数目 累积 比例 〈%) 


c 100 264 26.347 
N 90 495 49.401 
i 80 576 57.485 
; E: 70 664 66.267 
- 60 727 72.554 
= 50 782 78.043 
40 821 81.936 

30 849 84.73 

20 877 87.524 

10 910 90.818 


利用 测序 获得 的 contig E NCBI 中 现 有 的 藻类 基因 组 序列 进行 比 对 ， 如 表 3 所 示 ， 共 有 4964 条 contig 
可 以 比 对 到 雨 生 红 球 菠 基 因 序 列 ， 匹 配 的 contig 总 长 度 为 9534797 bp， 比 对 长 度 为 696150; 其 次 ， 匹 配 到 
SEXE (Chlamydomonas reinhardtii) 的 contig 数量 为 1977 条 ， 匹 配 的 contig 总 长 度 为 4068934 bp， 比 对 
长 度 为 246989 bp。 莱 芮 衣 藻 是 绿 藻 门 模式 生物 ， 与 雨 生 红 球 省 同 属 绿 藻 门 ， 团 藻 属 ， 匹 配 同 源 性 较 高 符合 
预期 。 
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因 组 草图 完整 性 


Table 3 Assessment the sequence coverage of H. pluvialis draft gnome using known algal genome sequences 


updated from NCBI 
匹配 基因 组 匹配 的 contig 数量 匹配 的 contig 总 长 度 (bp) ” 比 对 长 度 (bp) 
By AE ZL BR RE 
REAL ERR 4964 9534797 696150 
(Haematococcus pluvialis) 
SE EY ICE 
AR 1977 4068934 246989 
(Chlamydomonas reinhardtii) 
FT isk 
Hrs 401 800015 45726 
(Volvox carteri f. nagariensis) 
AR $ DEN 
BRIER 347 747501 38375 
(Chlorella variabilis) 
Cs BR EE C- 
TOURS CNP 178 352938 20464 
(Coccomyxa subellipsoidea C-169) 
IAIN 壳 5 è peA 
RSC /) ERIE 165 316284 16626 


(Auxenochlorella protothecoides) 


2.4 基因 预测 与 功能 注释 


用 拼装 出 的 基因 组 , 使 用 Augustus 进 


平均 CDS 长 度 为 681 bp; 平均 每 个 基因 
EA, 通过 blastp 分 别 与 NCBI 的 非 元 余 蛋 白 数据 库 Cr), KEGG (Kyoto Encyclopedia of Genes and Genomes) 
和 UNIPORT (Universal Protein) 数 据 库 比 对 ， 进 行 功能 注释 ， 结果 共 
3,117 个 蛋白 具有 KEGG ft ortholog, d 


行 基 因 预 测 , 共 得 到 11,059 个 预测 基因 , 平均 基因 


包含 3.2 个 外 显 子 ， 外 显 


了 


Į 6,890 "Æ 


长 度 为 1,711 bp, 
平均 长 度 为 353 bp。 将 预测 基因 的 编码 


具有 明确 的 生物 学 功能 ， 
FE 释 率 为 62.30 %。 利 用 预测 的 6,890 个 蛋白 与 NCBI 中 现 有 的 藻类 蛋 
白 序列 进行 比 对 ， 如 表 4 所 示 ， 预 测 基因 所 匹配 的 同 源 性 最 高 的 蛋白 所 属 的 物种 分 别 是 


A (Volvox carteri 


f. nagariensis) ~ XPI KEE (Chlamydomonas reinhardtii) 、 单 针 党 《Monoraphidium neglectum) 、 胶 球 藻 C-169 


(Coccomyxa subellipsoidea C-169) ~ #287) ERE (Chlorella variabilis) 、 原 壳 小 球 藻 (Auxenochlorella 


protothecoides) ~ Wj^EZLER?& (Haematococcus pluvialis) 和 盐 生 杜氏 藻 (Dunaliella salina) 。 


为 103 KEJT MUE AS HERES ER FP A DO e H 
根据 KEGG 注释 结果 生成 代谢 通路 图 
磷酸 成 糖 途径 、 嗓 叭 和 喀 啶 合成 等 基本 代谢 通路 ， 说 明 拼装 得 到 的 序列 


为 2148 条 ， 
， 共 获得 230 个 代谢 通路 图 ， 具 有 完整 


占 比 为 24.06%。 


Heh, E-value 


的 糖 酵 解 、 三 羧 酸 循环 、 
包含 了 基本 的 必需 基因 信息 。 


其 中 


注释 率 较 高 的 代谢 通路 主要 包括 : 碳水 化 合 物 代 谢 〈Carbohydrate metabolism) ， 氢 基 酸 代谢 (Amino acid 


metabolism) ， 能 量 


H 


lim] 


代谢 (Energy metabolism) , £&& 
of cofactors and vitamins) , 


FE 
Ea 


transport) , 


白质 翻译 (Translation ) ， 辅 因 


子 和 维生素 代谢 (Metabolism 
白质 折 又 、 分 选 与 降解 (Folding, sorting and degradation) ， 膜 转运 (Membrane 
tft (Signal transduction) ， 


脂 代谢 (Lipid metabolism) 等 通路 〈 图 2) 。 
KA 以 已 知 攻 类 蛋白 序列 评价 基因 组 草图 完整 性 
Table 4 Assessment the sequence coverage of H. pluvialis draft genome using known algal protein sequences 
E-value-10? E-value=10"! E-value=10”° 
最 佳 匹 配 物种 
数目 比例 AH 比例 ”数目 比例 
: Du 2148 24.06% 1900 23.57% 1511 21.92% 
Volvox carteri f. nagariensis 
KAKER 1820 20.39% 1618 20.07% 1315 19.08% 
Chlamydomonas reinhardtii ii TRE ves 
Mio 516 7.49% 433 6.2896 313 4.54% 
Monoraphidium neglectum 
IE P SER 
IE ERR 262 2.93% 225 2.79% 163 2.37% 
Coccomyxa subellipsoidea C-169 
多 变 小 球 藻 
172 1.939 14 1.779 0 1.31? 
Chlorella variabilis 1 i 3 Tas a ate 
Eie ERE 
2 .819 .699 .559 
Auxenochlorella protothecoides i tere a uo i oos 
RYZE ZL PRE 
1 ALERT - 68 0.76% 68 0.84% 66 0.96% 
Haematococcus pluvialis 
th AE EE 
No 41 0.45% 39 0.48% 37 0.54% 
其 他 1260 14.11% 1011 12.54% 796 11.55% 
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2 雨 生 红 球 藻 预 测 和 蛋白 的 KEGG 注释 分 析 


Fig. 2 KEGG analysis for predicted proteins of Haematococcus 


pluvialis 


利用 CDD 数据 库 和 RPS-Blast 进行 KOG 分 类 ， 结 果 共 有 5233 个 蛋白 被 KOG 分 类 注释 ， 按 照 功能 不 


同 可 分 成 26 个 类 群 ， 主 要 包括 一 般 功 能 预测 CGeneral function prediction only) , 


操纵 子 (Posttranslational modification, protein turnover, chaperones) ， 信 和 号 转 导 机 


翻译 后 修饰 、 和 蛋白 折 铸 及 


Hl] (Signal transduction 


mechanisms) ， 氮 基 酸 转运 与 代谢 (Amino acid transport and metabolism) ， 和 蛋白 翻译 、 核 糖 体 结构 与 合成 
(Translation, ribosomal structure and biogenesis) ， 碳 水 化 合 物 转 运 与 代谢 (Carbohydrate transport and 


metabolism) (I3) 。 在 不 同 E-value 下 的 KOG 比 对 结果 如 表 5 所 示 。 


#5 预测 蛋白 在 不 同 E-value 下 的 KOG 分 类 


Table 5 Assessment the KOG analysis for predicted proteins of Haematococcus pluvialis under different E-values 


KOG 分 类 1.00E-03  1.00E-05  1.00E-10  1.00E-15  1.00E-20 1.00E-25 1.00E-30 
Amino acid transport and metabolism 363 343 310 281 245 221 192 
Carbohydrate transport and metabolism 334 314 256 213 179 149 129 
Cell cycle control, cell division, 
e partitioning e m " xi i 3 n 
Cell motility 1 1 1 0 0 0 0 
Cell wall/membrane/envelope biogenesis 57 50 34 29 17 14 14 
Chromatin structure and dynamics 73 67 53 48 43 34 23 
Coenzyme transport and metabolism 124 115 101 87 81 71 56 
Cytoskeleton 213 179 149 124 107 91 74 
Defense mechanisms 21 20 16 6 2 2 2 
Energy production and conversion 286 269 243 207 184 162 141 
(Extracellular structures 49 21 5 2 2 2 2 
Function unknown 177 146 103 70 50 38 25 
General function prediction 482 410 293 236 196 167 132 
; Inorganic ion transport and metabolism 231 201 161 126 100 84 64 
E I ^ ierant 220 191 170 139 111 91 79 
Lipid transport and metabolism 209 193 159 134 111 88 76 
Nuclear structure 16 14 10 7 5 4 3 
Nucleotide transport and metabolism 148 141 130 110 97 83 66 
Posttranslational modification, protein 470 434 364 312 259 218 185 
tutnover, chaperones 
Replication, recombination and repair 152 138 114 100 88 72 58 
RNA processing and modification 278 261 229 190 158 130 110 
Secondary metabolites biosynthesis, 
transport ae catabolism i Pet "s in Ins m T A 
Signal transduction mechanisms 391 325 253 200 157 117 88 
Transcription 240 195 142 109 91 69 57 
caren e 359 346 308 zu 226 198 167 
总 计 5233 4687 3863 3216 2688 2236 1841 
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B Amino acid transport and metabolism 

m Carbohydrate transport and metabolism 

m Cell cycle control, cell division, chromosome partitioning 
wm Cell wall/membrane/envelope biogenesis 

wm Chromatin structure and dynamics 

8 Coenzyme transport and metabolism 

m Cytoskeleton 

= Defense mechanisms 

& Energy production and conversion 

m Extracellular structures 

m Function unknown 

9 General function prediction only 

8 Inorganic ion transport and metabolism 

m Intracellular trafficking, secretion, and vesicular transport 
® Lipid transport and metabolism 

9 Nuclear structure 

® Nucleotide transport and metabolism 

® Posttranslational modification, protein turnover, chaperones 
a Replication, recombination and repair 

um RNA processing and modification 

* Secondary metabolites biosynthesis, transport and catabolism 
® Signal transduction mechanisms 

* Transcription 


© Translation, ribosomal structure and biogenesis 


图 3 WEARER FI KOG 分 类 


Fig. 3 KOG analysis for predicted proteins of Haematococcus pluvialis 


3. Wie 


真 核 演 类 起 源 于 内 共生 事件 ， 种 类 繁多 ， 进 化 地 位 特殊 、 过 程 复 杂 。 内 共生 学 说 认为 ， 原 核 生 物 蓝藻 经 


TIRAREN, ÉRA EMKE, 在 绿 藻 和 红 藻 的 基础 上 ， 经 过 次 级 内 共生 形成 了 其 他 微 藻 ， 例 
wka CCryptophycean) 。 其 中 ， 绿 菠 形 态 多 样 ， 光 合 色素 系统 与 高 等 植物 相似 ， 既 含有 叶绿素 a， 也 含有 


叶绿素 b， 其 进化 地 位 虽 介 于 高 等 植物 和 原核 蓝藻 之 间 ， 但 又 不 可 简单 的 看 成 是 介 于 微生物 和 高 等 植物 之 间 
的 过 渡 类 群 ， 长 期 以 来 也 一 直 是 植物 学 界 和 藻类 学 界 研究 的 热点 。 开 展 雨 生 红 球 攻 基因 组 测序 研究 ， 对 于 解 


析 绿 藻 门 演化 趋向 、 真 核 藻类 起 源 与 演化 等 方面 都 具有 极其 重要 的 意义 。 


雨 生 红 球 藻 分 布 广泛 ， 耐 受 性 强 ， 能 


的 逆境 孕育 了 其 精细 的 信号 转 导 系统 和 特殊 的 次 生 代谢 系统 , 是 研究 生物 逆境 响应 的 理想 材料 。 开 展 雨 生 红 


适应 缺 氮 、 高 光 、 低 氧 、 高 盐 等 特殊 逆境 ， 并 合成 虾 青 素 。 复 杂 


球 藻 的 全 基因 组 测序 研究 ， 将 为 建立 雨 生 红 球 藻 的 基因 组 、 转 录 组 、 代 谢 物 组 等 系统 生物 学 模式 研究 体系 ， 


深入 地 考察 雨 生 红 球 藻 能 量 存储 和 转化 、 逆 境 胁迫 响应 机 理 等 一 系列 复杂 性 状 的 网 络 调控 机 制 ， 从 而 建立 十 


生 红 球 藻 的 基因 调控 网 络 的 功能 基因 组 学 下 
和 构建 高 质量 的 藻 株 提供 重要 参考 。 


究 模 型 , 为 直接 指引 通过 代谢 工程 手段 和 合成 生物 学 的 思路 改造 
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E, 无 论 是 从 研究 真 核 藻类 起 源 与 进化 的 角度 ,还 是 推动 雨 生 红 球 藻 产 业 发 展 的 层面 ， 雨 生 红 球 藻 的 
全 基因 组 测序 都 或 待 尽快 被 完成 .本 研究 利用 第 二 代 高 通 量 测 序 技术 开展 了 十 生 红 球 藻 低 覆盖 度 全 基因 组 测 
序 ， 并 预测 了 十 生 红 球 藻 基因 组 大 小 等 基因 组 基本 特征 ， 为 绘制 高 质量 十 生 红 球 藻 基 因 组 精细 图 作 了 准备 ， 
日 与 近年 来 报道 的 高 质量 绿 藻 基因 组 精细 图 谱 比 较 仍 有 差距 。 例 如 ，Roth 等 (2017) 采用 三 代 Pacbio 和 二 
代 基 因 组 测序 技术 相 结合 ， 完 成 了 佐 夫 色 绿 藻 染 色 体 水 平 的 基因 组 组 装 ， 共 组 装 出 19 条 染色 体 ， 发 现 编码 
基因 1.5 万 多 个 。 然 后 ， 采 用 转录 组 学 技术 和 通过 测定 藻 株 类 胡萝卜 素 含量 ， 系 统 解读 了 雨 生 红 球 菠 野 生 株 
和 突变 株 响应 不 同 光 强 胁迫 条 件 时 的 虾 青 素 积 累 机 制 。 该 研究 不 仅 绘制 了 高 质量 的 佐 夫 色 绿 菠 基 因 组 ， 并 详 
细 解 读 了 有 关 该 藻 的 重要 科学 问题 ,如 不 同 光 强 胁迫 条 件 下 虾 青 素 积 累 机 制 ， 为 后 续 利用 代谢 工程 等 手段 构 
于 优良 藻 株 提供 了 理论 依据 ， 值 得 后 续 开展 雨 生 红 球 藻 全 基因 组 精细 图 谱 绘制 时 参考 。 
一 开展 雨 生 红 球 车 全 基因 组 测序 及 精细 图 谱 的 绘制 ， 需 要 注意 以 下 几 方 面 问题 : 〈1) 建立 雨 生 红 球 藻 无 
培养 体系 。 雨 生 红 球 藻 常 常 伴 有 共生 菌 ， 且 利用 EG:JM 等 有 机 培养 基 培 养 时 容易 被 细菌 污染 ， 开 展 全 
组 测序 研究 需要 特别 注意 无 菌 化 处 理 ， 以 避免 测序 获得 的 基因 组 拼接 困难 等 问题 。 郑 凌 凌 等 2017) 研 
AH, XS RYE ZL BREE FACHB-712 藻 株 可 选择 青霉素 、 庆 大 霉 素 、 卡 那 霉 素 两 种 或 3 种 依次 加 入 ， 实 现 
洛 株 除 菌 操 作 P53。 本 研究 在 开展 全 基因 组 测序 前 ， 特 别 注意 了 染 菌 问题 ， 先 后 通过 反复 纯化 、 显 微 镜 镜 检 ， 
16S rRNA 测序 等 手段 , 确保 测序 样品 未 受到 细菌 污染 。(2) 建议 将 二 代 测 序 技术 与 三 代 测 序 技术 结合 运用 。 
基于 本 研究 预测 发 现 ， 雨 生 红 球 藻 基 因 组 大 约 500M 左右 ， 且 应 该 含有 多 条 线性 染色 体 ， 建 议 采 用 最 新 的 第 
三 代 测 序 系统 PacBio SMRT 测序 。 该 测序 系统 可 以 获得 长 达 10 Kb 的 reads， 拼 装 效果 较 好 。 同 时 ， 辅 以 
Illumina Hiseq2500 测序 ， 可 以 校正 PacBio 测序 中 的 单 碱 基 indel 的 错误 ， 以 便 提 高 拼装 结果 的 准确 性 。 
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